مدرس: محمدعلی کیوانراد باسمه تعالی آزمون نهایی درس یادگیری ماشین به همراه پاسخ کوتاه ترم اول 9-9 زمان: 01 دقیقه نام و نام خانوادگی: شماره دانشجویی: ایمیل: در این قسمت عالوه بر تعیین گزینه درست علت انتخاب این گزینه را توضیح دهید. )هر تست 4 نمره( در رابطه با مشکل بیش برازش )overfitting( کدام یک از گزینه هاي زیر نادرست است الف( اعتبارسنجی متقابل )cross-validation( می تواند بروز بیش برازش را تشخیص دهد. ب( با تغییر تابع هدف بهینه سازي نیز می توان جلوي بیش برازش را گرفت. ج( فرضیه h H بر روي داده هاي آموزشی بیش برازش می شود وقتی که فرضیه h H وجود داشته باشد که Error و Error train (h) > error train (h D (h) < error D (h ) ) د( احتمال رخ دادن بیش برازش در طبقه بندي که با داده هاي بیشتري آموزش داده شده است کمتر است. هر دو عالمت بزرگتر و کوچکتر باید برعکس شوند تا درست باشد. تخمین خطاي leave-one-out براي جداسازي با بیشترین حاشیه در شکل زیر چقدر است )مجموع تعداد نمونه هاي غلط تشخیص داده شده در تمامی مراحل مد نظر است(..0. د( 01 ج( 6 ب( 0 الف( صفر چون هر یک را به عنوان تست کنار بگذاریم ابر صفحه تغییر نکرده و درست ارزیابی می کند. براي داده هاي نشان داده شده در شکل زیر کدام خروجی ها می توانند به ترتیب از راست به چپ حاصل ماشین بردار پشتیبان خطی ماشین بردار پشتیبان با کرنل گاوسی و 1=σ و ماشین بردار پشتیبان با کرنل گاوسی و 0.5=σ باشند. الف( D,C,A ب( E,C,A ج( D,C,B د( E,C,B
خطی فقط یک خط جدا کننده است گوسی یک دایره در اطراف SV ها خواهد بود )مثل C یا E( و گوسی با انحراف معیار کوچکتر باید همان جواب قبلی باشد که دایره هاي آن کوچکتر شده است. کدام یک از گزینه هاي زیر صحیح است الف( حذف یکی از بردارهاي پشتیبان از مجموعه داده ها ممکن است باعث شود که حاشیه ماشین بردار پشتیبان کاهش پیدا کند. ب( در مسائل کالسه بندي مرزهاي با باالترین حاشیه اي که ماشین هاي جداساز خطی می سازند داراي کمترین خطاي تعمیم )generalization( در بین تمامی کالسه بندیهاي خطی دیگر هستند. ج( مقدار حاشیه بدست آمده در دو ماشین بردار پشتیبان با کرنل هاي متفاوت K1(xi,xj) و K(xi,xj) بر روي یک مجموعه داده آموزشی یکسان نشان دهنده میزان کارایی دو ماشین فوق بر روي مجموعه داده تست است. د( روش 0 -نزدیک ترین همسایگی )NN-0( با استفاده از فاصله اقلیدسی در یک فضاي ویژگی با ابعاد باالتر که بوسیله نگاشت با یک کرنل گاوسی بدست آمده است ممکن نیست نتایج بهتري را به نسبت فضاي اولیه به دست دهد. مرزهاي با باالترین حاشیه بهترین ابرصفحه را می توانند در وسط خود پیدا کنند که داراي تعمیم باالتري است. کدام گزینه نادرست است.4.1 الف( اگر مساله رگراسیون خطی را براي تابع هدف مجموع مربع خطا با روش نزول در امتداد گرادیان حل کنیم ممکن است چند پاسخ بهینه محلی بدست آید. ب( اگر در هنگام ساخت درخت تصمیم اجاره دهیم درخت بیش ترین عمق ممکن را داشته باشد احتمال overfit شدن به نویز موجود در داده ها افزایش می یابد. ج ) زمانی که فضاي فرضیه ها غنی تر باشد احتمال overfit شدن افزایش می یابد. د( به کمک داده validation می توان جلوي overfit را گرفت. رگراسیون خطی یک تابع هدف درجه است و شکل مخروطی آن فقط یک کمینه دارد. کدام گزینه معنی روش data bootstrap را در یادگیري گروهی ارائه می دهد الف( انتخاب تصادفی M ویژگی از M ویژگی با جایگذاري ب( انتخاب تصادفی M ویژگی از M ویژگی بدون جایگذاري ج( انتخاب تصادفی M نمونه از M نمونه با جایگذاري د( انتخاب تصادفی M نمونه از M نمونه بدون جایگذاري در این روش باید نمونه هاي انتخاب شده مجددا امکان انتخاب داشته باشند و نمونه هاي انتخاب نشده براي تست استفاده می شوند..6 سواالت زیر را به صورت تشریحی پاسخ دهید. تفاوت یادگیري با ناظر Learning( )Supervised و یادگیري بدون ناظر Learning( )Unsupervised در چیست هر یک از روشهاي ماشین بردار پشتیبان شبکه عصبی خوشه بندي یادگیري مبتنی بر نمونه و درخت تصمیم از کدام یک از این انواع گفته شده است. )9 نمره(.7 با ناظر: گرفتن چند نمونه با ورودي و خروجی متناظرش و تخمین خروجی بر اساس ویژگی هاي ورودي
بدون ناظر: ساخت بازنمایی جدید از ورودي است و برچسب داده ها استفاده نمی شود. هه روشهاي گفته شده با ناظر هستند به جز خوشه بندي 8. نویز چیست و منابع آن )4 مورد( را نام ببرید. )6 نمره( وقتی مدل نتواند دقیقا بر روي داده fit شود. عدم دقت در ویژگی هاي داده )نویز ورودي( خطا در برچسب ها فقدان ویژگی هاي الزم ساده بودن مدل مورد استفاده اثبات کنید که مقدار کمینه b Ax برابر x = (A A) 1 A b است. 8( نمره(.9 a i = a i x Bx x = Bx a x x یادآوري: = a و و 01. با توجه به داده آموزشی زیر و روش Naive Bayes مشخص کنید که ماشینی به صورت SUV Domestic Red دزدیده خواهد شد )0 نمره( P(Stolen = yes Color = Red, ype = SUV, Origin = Domesic) P(Stolen = yes) P(Color = Red Stolen = yes) P(ype = SUV Stolen = yes) P(Origin = Domesic Stolen = yes) = 1 5 1 5 5 = 15
P(Stolen = no Color = Red, ype = SUV, Origin = Domesic) P(Stolen = no) P(Color = Red Stolen = no) P(ype = SUV Stolen = no) P(Origin = Domesic Stolen = no) = 1 5 5 5 = 9 15 پس با احتمال بیشتر دزدیده نمی شود. 00. سه رویکرد درخت تصمیم در مواجهه با ویژگی هاي بدون مقدار values( )missing چیست )6 نمره( براي ویژگی A در گره آن می بینیم مقدار معمول براي آن چیست. شبیه قبلی ولی فقط بررسی نمونه هایی در آن گره با کالس مشترک v i دادن احتمال p i به هر مقدار ممکن از ویژگی A 0. درخت تصمیم مناسب براي داده هاي زیر رسم نمایید. )0 نمره( Entropy(S) = 1 log 1 1 log 1 = 1 Entropy(a 1 = ) = 1 log 1 log = 0.9, Entropy(a 1 = ) = log 1 log 1 = 0.9 Gain(S, a 1 ) = 1 6 0.9 0.9 = 0.08 6 Entropy(a = ) = 1 log 1 1 log 1 = 1, Entropy(a = ) = 1 log 1 1 log 1 = 1 Gain(S, a ) = 1 4 6 1 6 1 = 0 پس گره ریشه a 1 خواهد بود. a 1 a a + - - + 0. یک دسته بند روي مجموعه آموزشی با 011 نمونه آموزش می بیند و پس از آموزش 91 نمونه آموزشی را درست دسته بندي می کند. با %91 اطمینان مشخص نمایید که خطاي واقعی این دسته بند در چه بازه اي است )توجه: 1.8=Z90( )6 نمره(
error s (h) ± Z n error s(h)(1 error s (h)) = 1 1 n 10 ± 1.8 10 (1 1 10 ) = 0.1 ± 0.084 100 04. تست جفت est( )Paired را تعریف کنید و مزیت آن چیست )6 نمره( تست دو فرضیه با استفاده از مجموعه مثال هاي یکسان. نتیجه چنین آزمایشاتی معموال منجر به فواصل اطمینان بسته تري می گردد زیرا اختالف مشاهده شده در خطا مربوط به اختالف بین فرضیه ها است در حالیکه وقتی فرضیه ها با استفاده از مجموعه داده هاي متفاوتی تست می شوند امکان تاثیرگذاري اختالف بین دو مجموعه داده زیاد می شود. 01. کرنل چیست چه ویژگی در SVM وجود دارد که امکان استفاده از کرنل را براي ما فراهم می کند توضیح دهید. )1 نمره( بردن از یک فضا به فضاي دیگر براي جداسازي بهتر داده ها. البته خروجی کرنل نتیجه ضرب داخلی دو بردار است که به فضاي دیگري نگاشت پیدا کرده است. الگوریتم SVM در همه روابطش تنها داراي ضرب داخلی x i. x j است و لذا می توان از خروجی کرنل به صورت ) j k = φ(x i ). φ(x استفاده کرد. 06. نقاط قوت و ضعف روشهاي SVM و IBL چیست )از هر کدام یک مزیت و 0 ضعف( )8 نمره( :SVM یادگیري ساده تعمیم خوب خوب کار کردن با داده کم یافتن مدل بهینه سراسري قابل استفاده براي داده هاي با ابعاد باال امکان تنظیم پیچیدگی دسته بندي کننده و خطا/ ضعف: تعیین کرنل مناسب :IBL یادگیري سریع یادگیري توابع پیچیده از دست ندادن اطالعات/ ضعف: کند بودن در زمان تست خراب شدن با ویزگی هاي نا مرتبط 07. روش Locally Weighted Linear Regression از چه تکنیکی براي تخمین تابع استفاده می کند فرق آن با رگراسیون خطی چیست )1 نمره( الگوریتم LWR تعمیمی بر الگوریتم KNN است که تقریب صریحی از تابع f حول ناحیه دربرگیرنده نمونه مورد بررسی با توجه به وزن همسایه هاي نمونه می دهد در حالیکه در رگراسیون خطی یک خط براي کل داده آموزشی ساخته می شود. پبامبر اکرم )ص( فرمودند:... خداوند فرمود : هرگاه بنده بگوید: "بسم اهلل الرحمن الرحیم" خداي متعال می گوید: بنده من با نام من آغاز کرد. بر من است که کارهایش را به انجام برسانم و او را در همه حال برکت دهم. )عیون اخبار الرضا ج ص )69